LaTeX入门-安装和配置环境
什么是LaTexLaTeX 是一种基于排版系统 TeX 的文档准备工具,常用于生成高质量的学术论文、书籍、报告、幻灯片等。它以文本文件的形式保存内容和格式控制代...

写在前面,本系列出于自身复习资料整理以及帮助周围同学应对考试的目的创建,可能部分内容并不完全正确和清晰,希望见谅,本系列计划于2024-12-29号前全部完成,针对部分可以手算的内容将给出一定例题。文章内容是作者在课件以及实践的基础上所自我总结的,再次提醒可能存在一些偏颇。
数据挖掘,一种计算机与数学的交叉科目,旨在通过统计、在线分析处理、情报检索、机器学习、专家系统和模式识别等方法来实现对数据价值的深度挖掘,从数据中提取到信息,进而上升到知识。
数据挖掘是问题导向的,所以挖掘工作的步骤以定义问题为起始,最终回到实际业务场景中去。
详细步骤:
1.定义问题:明确挖掘工作的目的是什么,了解相关的业务知识和数据。
2.准备数据:根据问题收集数据,建立数据库,对数据进行描述、分析和选择。更进一步,对数据进行清洗以及数据转换,完成特征工程的部分。
3.建立模型:根据数据和问题选择合适的模型。
4.评价模型:对上一部得到的模型(们)进行结果分析和模型评价。从测试集中得到的数据准确率只对建立模型的数据有意义,需要进一步了解错误的类型和由其所造成的影响。一个有效的数据模型并不一定是正确的模型。造成这一现象的原因主要是因为建立模型过程中的各种假设因素,所以,需要在现实世界对模型进行测试,先在小范围中测试,当结果符合预期后,再向大范围推广。这种demo的思想在实际工作中比较有用,不要妄想把所有数据一股脑塞进去,然后等个一天就能跑出来一个满意的结果。
5.模型实施
数据挖掘的任务主要分为两大类,描述以及预测:
描述方法旨在总结数据的内在结构和特点,常见的技术包括:
预测方法则专注于利用已有数据预测未来或未知的结果,常见技术包括:
按照学习方式的分发也可以分为监督学习和非监督学习:
对于监督和非监督的例子可以用人的学习行为来类比,监督式学习类似老师向你提供了很多例题以及答案,你通过对例题的学习形成了一定的模型,进而可以在未来对更多没有参考答案的题进行求解。
而非监督学习就是把一堆事实摆在你眼前,让你从中获取知识,而没有人告诉你这些知识的正确性与否。
模型通过训练数据学习输入与*标签*的映射关系,通俗来说就是告诉模型训练集的特征以及对应的标签,形成一定的模型,这样就可以提供业务中新出现的特征让模型来预测标签(label):
常用的监督学习:
模型*无需标签*,通过数据的内在结构进行学习,无需标签意味着可能不存在“正确答案”,没有提前预设好的label,而是让模型根据数据的特点“生成”label :
常用的非监督学习:
简单来说,提前打好标签就是监督,没有就是非监督。
在下面的内容中我们将针对监督学习进行展开。
数据挖掘模型的表现如何,离不开科学的评估方法。模型评估的核心在于理解和解决**过拟合**与**欠拟合**问题。过拟合问题和欠拟合问题通常是在监督学习范围内提及的。

此外,模型的偏差(Bias)与方差(Variance)分析有助于进一步理解模型的行为。
在模型训练过程中,验证方法与性能指标的选择尤为重要。

在实际问题中应该根据问题要求决定重点关注哪个指标,如:研究预测财务造假问题时,如果以造假为正例,则应该重点关注召回率,即是否尽可能抓住所有造假的样本。

其中MAPE由于与预测值的数量级无关,因而更能直观快速的让人了解到你的模型的表现。
在解决一些预测问题时,我们可能会发现对预测变量( y )进行一定变化会有效提升模型表现(如取对数 lny ,这很有可能是由于在总体样本中y的分布具有明显的偏态特征)在计算评价指标时,应将预测值映射回原本y的坐标上进行计算(将lny计算回y)这样才能更好的证明模型的有效性。在实践中,这样的操作意味着对y的映射只需要对训练集采用,而测试集的y不需要映射到lny。
面对多种模型,如何选择和优化是关键。
验证曲线是一种通过调整模型的超参数来评估模型性能的方法,用于分析模型在不同超参数取值下的表现。
系统地遍历所有可能的超参数组合,找到性能最优的配置。
用于分析分类模型在特定目标群体中的预测效果,尤其适合营销和信用评分等场景。
通过绘制真正例率(TPR)和假正例率(FPR)的关系曲线,全面评估模型分类能力。曲线下的面积(AUC)越接近1,模型性能越好。
上一篇更回味

什么是LaTexLaTeX 是一种基于排版系统 TeX 的文档准备工具,常用于生成高质量的学术论文、书籍、报告、幻灯片等。它以文本文件的形式保存内容和格式控制代...
下一篇更精彩

评论区
预览:
芜湖,评论施工完毕,如果发现有任何披露可以在评论反馈呦。
并不需要登录,随便起个昵称就能发布评论
When to join our company?
技术太好啦,好专业,太喜欢啦啦啦啦啦